Quantitative Usablility-Analysen mit der System Usability Scale (SUS)

Neben qualitativen Usability-Analysen wie User-Tests oder systematischen Expertenanalysen haben in der Usability-Forschung auch quantitative Erhebungen sowohl ihre Daseinsberechtigung als auch Aussagekraft. Eine solche quantitative Methode ist die System Usability Scale (SUS), eine 1986 von John Brooke entwickelte sog. Quick-and-dirty-Methode zur Messung der Usability einer Anwendung, die heute zu den etablierten und anerkannten Verfahren in der Nutzerforschung gehört. Mithilfe der SUS werden Daten erhoben, die sich quantitativ auswerten und interpretieren lassen: Nutzer beantworten Fragen zur Anwendung, das Ergebnis ist ein prozentualer Usability-Wert der Applikation.

Der SUS-Fragebogen

Mithilfe eines einfachen Fragebogens, der aus insgesamt zehn Fragen auf Basis von Likert-Skalen mit je fünf Optionen besteht, kann ermittelt werden, wie nutzerfreundlich eine Software wahrgenommen wird. Der SUS-Fragebogen enthält fünf positiv und fünf negativ formulierte Aussagen zur Usability des zu bewertenden Systems. Brooke schlägt folgende zehn Aussagen vor, die an individuelle Bedingungen angepasst werden können und sollten:

Ich kann mir sehr gut vorstellen, das System regelmäßig zu nutzen.
Ich empfinde das System als unnötig komplex.
Ich empfinde das System als einfach zu nutzen.
Ich denke, dass ich technischen Support brauchen würde, um das System zu nutzen.
Ich finde, dass die verschiedenen Funktionen des Systems gut integriert sind.
Ich finde, dass es im System zu viele Inkonsistenzen gibt.
Ich kann mir vorstellen, dass die meisten Leute das System schnell zu beherrschen lernen.
Ich empfinde die Bedienung als sehr umständlich.
Ich habe mich bei der Nutzung des Systems sehr sicher gefühlt.
Ich musste eine Menge Dinge lernen, bevor ich mit dem System arbeiten konnte.

Wie schon angesprochen beantworten die Teststeilnehmer diese Fragen mithilfe von Likert-Skalen, die von vollständiger Ablehnung bis hin zu vollständiger Zustimmung reichen:

Abb. 1.: Likert-Skala mit fünf Optionen

Diese Kategorien werden im Standardverfahren mit Werten von 0 bis 4 kodiert. Dabei hängt die Kodierung jeweils von der Formulierung ab: Bei positiv formulierten Vorgaben erhält die Antwort volle Zustimmung den Wert 4 und eine rundweg ablehnende Antwort den Wert 0. Bei negativ formulierten Vorgaben wird die Antwort volle Zustimmung mit 0 kodiert, eine vollständig ablehnende Antwort erhält den Wert 4. (Man muss beim SUS-Verfahren natürlich implizit voraussetzen, dass die Abstände zwischen den Kategorien jeweils gleich groß sind.)

Der SUS-Score

Aus den Ergebnissen des SUS-Fragebogens errechnet sich ein sog. SUS-Score, der eine Ausprägung zwischen 0 (schlechteste vorstellbare Anwendung) und 100 (beste vorstellbare Anwendung) annehmen kann: Bei der Auswertung des Fragebogens werden die gewonnenen Zahlen addiert – die Summe liegt zwischen 0 und 40 – und anschließend mit 2,5 multipliziert. Ergibt die Summe aller Antworten beispielsweise 22, liegt der sog. SUS-Score also bei 55. Nehmen wir ein exemplarisches Beispiel:

Aussage	Stimme gar nicht zu				Stimme voll zu
Ich kann mir sehr gut vorstellen, das System regelmäßig zu nutzen.					x
Ich empfinde das System als unnötig komplex.		x
Ich empfinde das System als einfach zu nutzen.				x
Ich denke, dass ich technischen Support brauchen würde, um das System zu nutzen.		x
Ich finde, dass die verschiedenen Funktionen des Systems gut integriert sind.			x
Ich finde, dass es im System zu viele Inkonsistenzen gibt.		x
Ich kann mir vorstellen, dass die meisten Leute das System schnell zu beherrschen lernen.			x
Ich empfinde die Bedienung als sehr umständlich.	x
Ich habe mich bei der Nutzung des Systems sehr sicher gefühlt.				x
Ich musste eine Menge Dinge lernen, bevor ich mit dem System arbeiten konnte.		x

Bei der ersten Aussage befindet sich der Wert 4 am rechten Ende der Skala (positive Aussage), bei der zweiten Aussage am linken Ende (negative Aussage), bei der dritten Aussage wiederum rechts (positive Aussage) usw. Somit ergeben sich aus den Antworten die Werte 4, 3, 3, 3, 2, 3, 2, 4, 3, 3. In der Summe: 30. Durch Multiplikation mit 2,5 kommt ein SUS-Score von 75 zustande.

Nach einer Testreihe mit mehreren Probanden wird schließlich aus allen Fragebögen ein durchschnittlicher SUS-Score ermittelt. Dieser Durchschnittswert kann nun als Prozentwert interpretiert werden:

100% entsprechen einem perfekten System ohne Usability-Probleme.
Werte über 80% deuten auf eine gute bis exzellente Usability hin.
Werte zwischen 60% und 80% sind als grenzwertig bis gut zu interpretieren.
Werte unter 60% sind Hinweise auf erhebliche Usability-Probleme.

Es gibt verschiedene Möglichkeiten, den SUS-Score in andere Kontexte zu "übersetzen" und ihn so auch Personen zugänglich zu machen, die nicht im Bereich Human Computer Interaction tätig sind. Abbildung 2 stellt das Übersetzungsschema grafisch dar:

Abb. 2.: Übersetzung des SUS-Scores in Quartile, Akzeptierbarkeit und Adjektive (Update zum Bild: "Determining What Individual SUS Scores Mean: Adding an Adjective Rating Scale" [Bangor et al., 2009])

Möglichkeiten und Grenzen

John Brooke selbst bezeichnet seine Methode als quick and dirty. Schnell ist dieses Verfahren tatsächlich und - freilich in Abhängigkeit von der Größe des gewünschten Teilnehmerkreises - innerhalb sehr kurzer Zeit durchführbar. Auch die Ergebnisse sind durchaus dirty im Sinne von unscharf. Sicherlich ist ein SUS-Score nicht bis auf die Einerstellen belastbar: 81% für das eigene System und 84% für das eines Mitbewerbers haben zunächst einmal keine Aussagekraft. 81% vs. 64% dagegen schon.

Der SUS-Score ist also als Tendenz zu verstehen, und diese ist wiederum durchaus belastbar: Methodenvergleichende Untersuchungen haben ergeben, dass selbst bei wenigen Teilnehmern valide Erkenntnisse darüber zu gewinnen sind, ob und in welchem Maße eine Anwendung Usability-Probleme hat – sofern der Teilnehmerkreis die richtige Zusammensetzung hat und die Fragen sinnvoll angepasst worden sind. Darüber hinaus (und nicht zuletzt) ist es durch Befragungen nach dem SUS-Prinzip möglich, konkrete Erkenntnisse über die Zufriedenheit der Nutzer zu erlangen, was mit anderen Methoden systematisch schwer möglich ist.

Nochmals: Anders als qualitative Untersuchungen liefert eine Befragung nach dem SUS-Prinzip keine Erkenntnisse darüber, welche Usability-Probleme vorliegen. Doch die Methode bietet eine schlanke, kurzfristig realisierbare und zuverlässige Möglichkeit herauszufinden, ob eine größere Investition in eine systematische Usability-Analyse durch Experten oder mithilfe eines User-Tests sinnvoll und empfehlenswert ist.

Wir sind Experten für Usability und unterstützen Sie gerne sowohl bei der Planung und Umsetzung webbasierter Befragungen als auch bei der Analyse und Fehlerbehebung Ihrer Web- oder Intranet-Anwendung. Bitte sprechen Sie uns unverbindlich an und informieren Sie sich auf unseren speziellen Seiten zu den Themen User-Tests und expertenbasierte Usability-Analysen.

Weiterführende Informationen

John Brooke: SUS - A Quick and Dirty Usability Scale
Der User-Test: Die Königsdisziplin der Usability-Forschung
Nutzerforschung ist ein separates Projekt
Online-Umfragen: Die richtigen Tipps für Skalen
LimeSurvey aus Admin-Sicht: Große Stärken, kleine Schwächen

Kennen Sie schon Linch & Pin?

Mehr über die Creative-Commons-Lizenz erfahren

ACHTUNG!

Unsere Blogartikel sind echte Zeitdokumente und werden nicht aktualisiert. Es ist daher möglich, dass die Inhalte veraltet sind und nicht mehr dem neuesten Stand entsprechen. Dafür übernehmen wir keinerlei Gewähr.

3 thoughts on “Quantitative Usablility-Analysen mit der System Usability Scale (SUS)”

Jonas sagt:

22. Juni 2016 um 16:58 Uhr

Auch wenn dieser Eintrag schon etwas älter ist wollte ich anmerken, dass, entgegen der Behauptung hier, der SUS-Score gerade KEIN prozentualer Wert der Usability ist! Um ein prozentuales Ergebnis anzugeben, muss der Score in ein Perzentil umgerechnet werden.
Dies kann im Artikel des Entwicklers nachgelesen werden: http://uxpajournal.org/wp-content/uploads/pdf/JUS_Brooke_February_2013.pdf
Tim sagt:

14. April 2017 um 09:59 Uhr

Credits where it’s due. Die Abbildung 2 in eurem Artikel ist ursprünglich vom Autor Bangor (2009). Sowas sollte man schon im Artikel erwähnen!
Eddy sagt:

30. August 2017 um 16:21 Uhr

Vielen Dank für deinen Hinweis, ich habe das Bild schon gesucht!

Hier nochmal der Titel für alle: “Determining What Individual SUS Scores Mean: Adding an Adjective Rating Scale” (Bangor et al., 2009)

Schreibe einen Kommentar

Du musst angemeldet sein, um einen Kommentar abzugeben.